腾讯云 TKE 团队提交 KEP：使用 cgroups v2 实现 Memory QoS

Original 徐蓓腾讯云原生 2021-07-13

徐蓓，腾讯云专家工程师，深耕云计算、Kubernetes、离在线混部领域，Kubernetes 社区积极贡献者。

背景

随着云原生进入深水区，很多用户希望通过业务混部提升集群利用率。但由于 kernel 限制，部分资源隔离性不强，会导致业务受损。在这种背景下，腾讯云 TKE 团队向 Kubernetes 社区提交了KEP-2570: Support Memory QoS with cgroups v2【https://github.com/kubernetes/enhancements/tree/master/keps/sig-node/2570-memory-qos】，以希望解决内存隔离和服务质量问题。该提案和实现代码已被社区接受，计划在 Kubernetes v1.22 发布 alpha 版。

原理

在原有方案中，Kubernetes 通过 cgroups v1 实现 CPU 和 Memory 隔离。CPU 属于可压缩资源，通过 cpuset.cpus / cpu.cfs_period_us / cpu.cfs_quota_us / cpu.shares 实现绑核、分核与权重等隔离。在节点 CPU 紧张时，任务只会被 throttle，不至于被 kill，影响范围可控。但 Memory 这类不可压缩资源，在节点内存不足时会触发 OOM Killer，通过 oom_socre_adj 做 kill 操作。这对部分 Burstable Pod 是不可接受的。而且某些内存消耗型 Pod 在创建和运行中会短时申请大量内存，导致节点内存瞬间飙升。节点内存紧张可能会导致内存高敏 Pod 在申请内存时触发慢路径，从而影响服务质量。cgroups v1 无法解决此类 Memory QoS 问题。

但幸运的是，cgroups v2 memory controller 为我们提供了丰富的参数用于实现内存预留与分配限速。

在我们提交的 KEP 中，主要使用 memory.min / memory.high 实现容器 / Pod / Burstable QoS 的内存保留与分配限速。

内存保留

对于容器，我们通过 memory.min=pod.spec.containers[i].resources.requests[memory] 为容器保留申请内存
对于 Pod，我们通过 memory.min=sum(pod.spec.containers[i].resources.requests[memory] 为 Pod 保留申请内存
对于 Burstable QoS，我们通过 memory.min=sum(pod[i].spec.containers[j].resources.requests[memory]) 为 Burstable Pods 保留申请内存

分配限速

若容器设置 limits.memory，我们通过 memory.high=pod.spec.containers[i].resources.limits[memory] * memory throttling factor 为容器超申请内存做分配限速
若容器未设置 limits.memory，我们通过 memory.high=node allocatable memory * memory throttling factor 为容器超申请内存做分配限速

更多设计细节可查阅：【https://github.com/kubernetes/enhancements/tree/master/keps/sig-node/2570-memory-qos】

目前实现代码已合入社区，详情见：

Feature: add unified on CRI to support cgroup v2^[1]
Feature: Support memory qos with cgroups v2^[2]

展望

随着 Linux cgroups v2 成熟和普及，以及 Kubernetes cgroups v2 支持进入 alpha，我们相信未来 Kubernetes 的资源 QoS 会逐渐 offload 到内核，资源隔离更多依赖内核进行强隔离。只有在这种趋势下，基于 Kubernetes 的大规模资源混部才会真正普及。

参考资料

[1]

Feature: add unified on CRI to support cgroup v2:【 https://github.com/kubernetes/kubernetes/pull/102578】

[2]

Feature: Support memory qos with cgroups v2:【 https://github.com/kubernetes/kubernetes/pull/102970】

往期精选推荐

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！